雑談 2025年3月

2025/3/31

ようやくPCと戯れる生活に戻ってきたので、溜まりに溜まった分頑張って読むぞぉnomadoor.icon

2025/03/30

https://zenn.dev/discus0434/articles/gemini-2-0-mmGPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

2025/3/27

ChatGPTの画像生成統合がなんか異様な性能してる…純粋に絵が上手いとかではなく「ほんとに指示が効く」ようになってる(漫画をコマ割りして書いたり、指示したら形を維持して角度変えてきたりと言った多彩なタスクをゼロショットで行ってる…)morisoba65536.icon

なお私の垢にはまだ該当モデルが来ていない😞morisoba65536.icon

Geminiも同じように画像編集できた（ツイートで見て知った）morisoba65536.icon

確実にfidelityが上がって便利になった基素.icon

https://huggingface.co/alibaba-pai/Wan2.1-Fun-1.3B-ControlWan2.1向けのControlNet？が来た？(とりあえずComfyUIの対応待ち、対応来たら個別ページにするか追記するかなり考える)

なんかtext2videoとimage2videoと同じように別モデル(loraではなく)に見えるが…？morisoba65536.icon

どうも独立モデルらしい、層の構造が少し違うので標準ノードの専用ノードを間に噛ませる必要がある…が、3/30時点のComfyUI最新版では上手く動かない不具合があるので3/28頃のバージョンで(これを使う場合)暫く様子見が良いか…？(ページに反映とかは安定してから考える予定)morisoba65536.icon

2025/3/26

https://civitai.com/models/1397074/drawundo-wan21-i2v-720-lora完成絵→線画→白紙に戻すLora

動画生成を使うことで画像の編集タスクが色々できそう…morisoba65536.icon

https://civitai.com/models/1389992/time-lapse-wan21-t2v-14b-lora線画→完成絵のLoraと合わせると写真からイラストみたいなコントロールネット的な使い方もできるのかな？(これはT2Iしか対応してないと書かれてるけど)morisoba65536.icon

https://civitai.com/models/1379629/360-camera-orbit-wan-21-i2v-lorahttps://civitai.com/models/1346623/360-degree-rotation-microwave-rotation-wan21-i2v-lorahttps://civitai.com/models/1346280/spinning-everything-wan21回転loraだけですでに3つあったりする

2025/3/24

推奨されてるサンプラー使っても画像が安定しない感じになることが多くてモデルとの相性もあるんだろうけどサンプラー何もわからんになる(Wan2.1で動画作る時にUniPC推奨されてるがeulerでないとなぜか安定しない…)morisoba65536.icon

UniPCはCFG7とかに上げるとあかんのか…？morisoba65536.icon

2025/3/22

思ってた以上に動画生成AI、拡散モデルのパラメータ数と学習データ数でぶん殴る手法がメインになってますね…(ボーンとか持たせる方向じゃないんだってなってる)morisoba65536.icon

最近ComfyUIに実装されているFP8 scaledをレイヤー見てみたらどうやら各waitレイヤーの前にscale_weightというFP32の単一の値レイヤー？があって、これを使ってFP8waitレイヤーの値の補正をして擬似的にFP32(実精度でBF16よりちょい下？)程度に調整しているようだ。morisoba65536.icon

https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/discussions/4説明、Loraなどの互換性はやや落ちるらしい

https://www.reddit.com/r/StableDiffusion/comments/1gc0wj8/sd35_large_fp8_scaled_vs_sd_35_large_q8_0_running/どうやら対応するハードウェアならFP8 scaledは早くなるらしい(ただし精度は若干GGUF Q8(INT8量子化)に劣る)

学習にも使える点はFP8 scaledの利点か？

2025/3/19

llmがキャリブレーションデータを使った量子化で性能をなるべく落とさず量子化できてるので画像生成でもできないかなーと複数のllmに聞いたところTextモデルと違って画像生成だとキャリブレーション用のデータがたくさんの種類必要でかなり難しそうな感じ…morisoba65536.icon

多分画像生成で出てくる量子化がほぼggufかbitsandbytes nf4の2択なのはこの2つがキャリブレーションデータ不要なのが大きいようだ(厳密には　ggufはキャリブレーションデータを使うこともできるが)

GPTQやAWQ形式はキャリブレーションデータが必須

LLM界隈でもgguf形式は結構人気bsahd.icon

おそらくllama.cppらへんに影響されてる

これに関してはLLM界隈の技術を(Fluxあたりからパラメータがデカくなりすぎて)輸入した、が近そうな感じ(12Bでも3060 12GBでも基本的に足が出るので…)

2025/3/15

ComfyUIをEasyInstaller各種とかで入れたけど他のに移行したい(特に代替UIとしては使いやすいSwarmUI等)時に移行する手順を最近多重に移行してるのでどこかにまとめたい気持ちmorisoba65536.icon

といっても、厄介なのはComfyUI-TeaCacheとか絡んでSageAttention導入したい、とかのとき以外はCustom_Nodeフォルダの中身をごっそりコピーして一度ComfyUI立ち上げてエラー履いてるNodeを絞り込んで(ComfyUI Managerに普通に付いてる機能)全部TryFIXボタン押して回るだけなのだがmorisoba65536.icon

ちょっとした注意点としてはgguf等の「vaeやclip、TextEncoderが分離してる拡散モデル本体」はunetフォルダに入れる必要がある(checkpointフォルダは統合モデルのみ)のが初見でハマりやすい罠

エラー起きてもイージーインストーラーのせいなのかComfyUIのせいなのか分かんないので、あんま好きでないですね…nomadoor.icon

ComfyUIしか使わないなら、バニラが一番！

Stability MatrixとSwarmUIネイティブの取り扱いしやすい方をどっちか試してみるか…morisoba65536.icon

モデルとか出るときいっぺんに来過ぎでここへの記載も全然間にあって無い

2025/3/14

https://boards.4chan.org/g/thread/104624040/ldg-local-diffusion-general#p104624743これ読む限りHunyuanVideoのi2vは最初のフレームに無理やり元画像を差し込んでやってるようだが、同じようなことを途中フレームでやればキーフレーム補完とかも出来るのかな？morisoba65536.icon

2025/3/12

SageAttention+TeaCacheの組み合わせだとWan2.1の30ステップ(静止画)がSDXLみたいな速度で動いてワロタmorisoba65536.icon

あとついでに検証した感じwan2.1がかける文字数は"sushi tabe tai"くらいまでっぽい(長くなると普通に単語をガン無視し始める)

Flux.1だと割と長文ぶっ込めるので同じ感覚だと戸惑う

2025/3/10

マスコット( mass CoT )()wogikaze.icon

2025/3/8

なぜかはしらんけどホントに「llmの話題出るときはllmが大量に出てくる」「画像関連の話題が出てきたときは画像関連のモデルがやたら出てくる」みたいな感じで狙ったかのようにタイミング被るわね…morisoba65536.icon

そんな話を書いた直後に同時にWan2.1のlora学習対応に複数ツールがアップデートされたhttps://github.com/kohya-ss/musubi-tunerhttps://github.com/ostris/ai-toolkit(現時点では全てVRAM24GB以上必要)

https://huggingface.co/spacepxl/wan-cfgdistill-lorashttps://x.com/spacepxl/status/18981490191566237731.3bのCFG蒸留(高速化)Loraも出たようだ

2025/3/6

https://x.com/ostrisai/status/1897344493747355990CogView4-6B、少し期待してたが量子化との相性がかなり悪そうですね…(SDV量子化なる手法が使えるかも…とスレッドでやりとりされてはいるが)morisoba65536.icon

モデルサイズ的に家庭向けの良い選択肢がでてきたか、と思ったが(TextEncoderがやたらデカいのと)トレーニング(モデル構造の癖が強いらしい)や量子化で中々苦戦されてるようだ…

Flux.1は蒸留がきつくてがっつりトレーニングした独自モデルが出づらいので、二次絵ジャンルについて暫くはSDXLが主流に居続けるかもしれない。

https://huggingface.co/lodestones/Chromalodestones/Chroma

一つ前にFlux.1は追加学習がきつい、と書いた直後にかなり大規模にschnellを魔改造(Pruning＆追加学習)されたモデルがでた。

名前がChromaと言う全く無関係の奴と被ってるんだけどページどう作ろう…morisoba65536.icon

とりあえずはChroma(画像生成)モデルにするしかないかなぁ…nomadoor.icon

xAIとか、英単語or短い単語は衝突するのは仕方ないwogikaze.icon

2025/3/5

画像生成AI、もしかしなくてもclipと言うTextEncoderが思ってた以上にいろんな性能の足を引っ張っていた可能性が近年の色んなモデルを見てると感じられる…まあStable Diffusion 1.5の時代は「家庭用ハードウェアで動かす」のも目的だったのであまり重たいモジュールをTextEncoderに使えなかったのもあるんだろうけど。morisoba65536.icon

サーバーで動かす奴はある程度大きくてもいいから性能を追及してほしいねwogikaze.icon

かといってSDXLレベルのサイズのゲーミングPCで動かせるサイズのモデルも作ってほしい

2025/3/3

単なるボヤキだけど俗に言う次世代モデルこと🦊SDXLより後のモデルはWorkflowが割と知らんやつがよく生えてくる(Flux.1のFluxGuidanceやらStable Diffusion 3からのModelSamplingSD3ノードやら)のとサンプルワークフローがやたらと細かくノードの数字を外に出してくる(解像度やらステップ数やらをノードの外で定義して引き込みがち)でカオスになってて理解に時間がかかる…morisoba65536.icon

一応SD1.5と同じようなシンプルなworkflowで生成できる方法も用意してくれてるので、基本そっちしか使わないnomadoor.icon

いじれるパラメータ無限にあるけど、結局大きく絵に関係するのモデルとプロンプトとシードなので、他はあんまりこだわってると時間が足りない。というか次の技術革新がやってくる(;´･ω･)

わかりすぎる（↑全体的にはるひ.icon